关注和粉丝信息width的页面结构相同怎么办？

旺旺团购网探索 2025-01-18 16:55:44

关注和粉丝信息的关注构相页面结构相同，所以只要写一个函数就可以完成两个类似的和粉任务。首先剖析URL的丝信抖音真人直播业务特性，打开任意一个移动端网页版微博的面结关注页和粉丝页。关注URL，同办有以下两种方式

关注：  https://weibo.cn/uid/follow?page=页码 粉丝：  https://weibo.cn/uid/fans?page=页码

很容易才能打开相应的关注构相页面。再来看系统容许我们查看多少页

写一个函数获得可以迭代的和粉次数

def getPageNum(soup):	"""	soup是关注页或粉丝页html的解析的返回结果，BeautifulSoup的丝信实例	"""    return int(soup.find(name='input', attrs={ 'name': 'mp'})['value'])

同样地，F12检测

每一个用户的面结主页链接出现两次（红色方框），并且父标签都是同办、属性都是关注构相抖音真人直播业务valign=“top”，所以每位关注（粉丝）用户信息出现两次。和粉获取的丝信方式比较简单，用findAll函数找出所有标签，面结后以step=2挨个提取。同办从蓝色方框中也能看到，用户主页URL不一定包含UID（优先展示个性域名），所以第一步获得UID很重要。其实这儿使用了一种麻烦的方式，因为每条信息都出现两次。观察图中第一个标签，它还有style="width: 52px"属性。还有一个更简单的方案是黄色方框的内容，这个表情是“关注他”按钮的链接，每个用户只出现一次微博粉丝链接，而且链接中早已包含了uid。如果借助这个标签的信息，第一步获取uid就是不必要的。

利用白色方框标签信息代码

def getRelation(person, relation, mobile=False):    if not (relation := relation.lower()) in ['focus', 'fans']:        raise ValueError('参数必须是 [\'focus\',\'fans\']')    if relation == 'focus':        pageUrlFunc = focusPageUrl        addFunc = person.addFocus    else:        pageUrlFunc = fansPageUrl        addFunc = person.addFans    url = pageUrlFunc(person, 1, mobile)    soup = getHtml(url=url, headers=header)    pageNum = getPageNum(soup)    for page in range(1, pageNum+1):        url = pageUrlFunc(person, page, mobile)        soup = getHtml(url=url, headers=header)        blank = ' ' if page < 10 else ''        print('正在抓取第', str(page)+blank, '页信息')                memberList = soup.findAll(name='td', attrs={ 'valign': 'top'})        for i in range(1, len(memberList), 2):            memberInfo = memberList[i].find(name='a')            name = memberInfo.text            uid = memberInfo['href'].split('/')[-1]            addFunc(WeiboUser(name=name, uid=uid))    print(person.name + ': ' + relation + " 信息抓取成功\n-------------------------------------------")

4. 基本链接和HTML

def homepageUrl(person, mobile=False):    if mobile:        pofix = ''        if person.uid:            pofix = person.uid        elif person.customDomain:            pofix = person.customDomain        else:            raise RuntimeError('缺少必要信息')        return 'https://weibo.cn/' + pofix        if oid := person.oid:        return 'https://www.weibo.com/u/' + oid    if pid := person.pageId:        return 'https://www.weibo.com/p/' + pid    if domain := person.customDomain:        return 'https://www.weibo.com/' + domain    def focusPageUrl(person, page=1, mobile=False):    if mobile:        return 'https://weibo.cn/' + person.uid + '/follow?page=' + str(page)    return 'https://weibo.com/p/' + person.pageId + '/follow?page=' + str(page)def fansPageUrl(person, page=1, mobile=False):    if mobile:        return 'https://weibo.cn/' + person.uid + '/fans?page=' + str(page)    return 'https://weibo.com/p/' + person.pageId + '/follow?relate=fans&page=' + str(page)def getHtml(url, headers):    response = requests.get(url=url, headers=headers)    if (html := response.text):        return bs(html, 'lxml')    print('无内容，正在重新请求')    getHtml(url, headers)

getHtml函数接收URL和恳求头，返回经过BeautifulSoup实例。因为不登陆微博，我们看不到用户的关注，所以恳求头里应当包含登入信息，cookie正是包含登入信息的一项。打开浏览器登陆微博，按F12步入开发者工具，选中网路（Network）

把cookie所有内容保存出来。为了模拟浏览器浏览，把user-agent也保存出来。

cookie = '

上一篇qq刷赞网站全网+最低价啊空间赞 - qq刷赞网站全网+最低价啊空间赞免费
下一篇啊豪代网刷 - 刷赞网站全网+最低价啊免费微信支付

qq刷赞网站全网+最低价啊空间赞 - qq刷赞网站全网+最低价啊空间赞免费

啊豪代网刷 - 刷赞网站全网+最低价啊免费微信支付

友情链接